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科技 文献 评价 中 语义 新 颖 性 研究 综述 
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(中 国 科 学 院 大 学 经 济 与 管理 学 院 信 息 资 源 管理 系 北京 100190) 


摘要 : [目的 ] 对 国内 外 语义 新 颖 性 研究 相关 进展 进行 归纳 整理 ， 总 结 相关 技术 ， 为 后 续 研 究 
提供 参考 。[ 文 献 范围 ] 利 用 “Novelty of the literature” “semantic novelty”“ 文 献 新 颖 性 ” 

“语义 新 颖 性 and 文献 评价 ”等 检索 式 进 行 检索 ， 经 过 阅读 整理 并 对 具有 代表 性 的 相关 理 
论 研 究 进行 溯源 ， 最 终 第 选 出 70 篇 文献 进行 评述 。[ 方 法 ] 对 国内 外 语义 新 颖 性 相关 研究 
进行 总 结 梳理 ， 围 绕 新 颖 性 定义 、 新 颖 性 评价 指标 和 不 同 评价 方法 等 分 析 科 技 文献 语义 新 
颖 性 评价 的 发 展现 状 及 未 来 趋势 。[ 结 果 ] 语 义 新 颖 性 评价 逐渐 受到 学 界 的 广泛 关注 ， 忆 有 
相关 研究 对 语义 内 容 进 行 挖 掘 评 价 ， 但 尚未 形成 统一 的 度量 指标 。[ 局 限 ] 现 有 的 文献 新 颖 
性 多 从 外 部 特征 进行 评价 ， 直 接 以 语义 新 疾 性 为 主题 的 研究 文献 数量 较 少 ， 在 支撑 综述 方 
面 存 在 局 限 性 。[ 结 论 ] 科 技 文献 的 语义 新 颖 性 评价 根本 在 于 语义 内 容 的 新 颖 性 ， 定 量 研究 
已 成 为 主流 研究 方法 ， 但 评价 指标 的 计算 方式 尚 需 明 确 ， 未 来 的 新 颖 性 评价 发 展 方向 应 结 
合 定性 与 定量 方法 全 面 分 析 ， 实 现 科 学 、 合 理 的 综合 学 术 评 价 。 
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Review of Semantic Novelty in Scientific Literature Evaluation 
Wu Xinyu LiHanyu Zhang Zhixiong Wu Zhenxin 
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 


(Department of Information Resources Management, University of Chinese Academy of Sciences, 
Beijing 100190, China) 


Abstract:[Objective] This paper reviews the relevant progress of semantic novelty research at 
home and abroad, and summarizes the relevant technologies to provide reference for the subsequent 
research. [Coverage] Using retrieval methods such as "Novelty of the literature", "semantic 
novelty", "literature novelty", "semantic novelty and literature evaluation", after reading and sorting, 
this paper traced the source of representative relevant theoretical researches, and finally selected 70 
literatures for review.[Methods] This paper summarizes the relevant researches on semantic novelty 
at home and abroad, and analyzes the development status and future trend of semantic novelty 
evaluation in scientific and technological literature by focusing on the definition of novelty, 
evaluation indexes of novelty and different evaluation methods. [Results] Semantic novelty 
evaluation has gradually attracted widespread attention from the academic community. There have 
been related studies on semantic content mining and evaluation, but no unified measurement index 
has yet been formed. [Limitations] The existing literature novelty is mostly evaluated from external 
features, while the number of literatures directly focusing on semantic novelty is small, which has 
limitations in supporting the review. [Conclusions] The evaluation of semantic novelty of scientific 
and technological literature is based on the novelty of content. Quantitative research has become 
the mainstream research method, but the calculation method of evaluation index needs to be clarified, 
and the development direction of novelty evaluation should be combined with qualitative and 
quantitative methods to achieve a scientific and reasonable comprehensive evaluation. 
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综合 现 有 研究 ， 基 于 前 文 所 述 的 新 颖 愧 
语义 新 颖 性 是 指 在 文献 中 提出 了 不 同 于 以 往 丰 
法 、 得 出 新 研究 结果 与 结论 、 使 用 新 研究 技术 与 数据 、 定 义 新 概念 与 特征 等 ， 
究 中 的 语义 内 容 进行 改进 或 完善 。 基 于 以 上 有 关 创 新 性 、 新 颖 性 及 语义 新 颖 性 的 概念 研 
究 ， 本 文 借鉴 K.Sarah 从 知识 组 合 角 度 出 发 对 新 颖 和 


不 。 


表 2 创新 性 与 新 颖 性 、 


研究 技术 、 软 人 


科技 文献 的 语义 内 容 主要 包括 : 


研究 领 


工具 、 评 价 方法 、 研 究 结 果 、 研 究 局 限 及 未 来 发 展 9 种 类 


QD 研究 背景 、 


系统 、 理论 原 E 


!、 数 据 资料 等 科 


目的 、 问 
ga 


Ap 
SI 


FE 与 内 容 语义 单元 概念 ， 本 研究 认为 ， 科 技 文献 


语义 新 颖 性 辨析 


FE 的 定义 ， 对 三 


者 进行 辨析 ， 


Table2 Analysis of innovation, novelty and semantic novelty 


或 对 


完 的 语义 内 容 ， 包 括 提出 新 研究 问题 与 方 


己 有 研 


如 表 2 所 


创新 性 新 颖 性 语义 新 颖 性 
提出 新 观点 、 理 论 、 V, BIO f -" : uis "mo 
eus ap 率先 提出 新 理论 、 方 法 ， 或 从 ”提出 了 不 同 于 以 往 的 研究 语义 
概念 号 创 造 新 事 移 ”并 能 写生” 室 影 。 知识 组 合 的 角度 ， 指 对 先前 存 内容， 或 对 已 有 研究 中 的 语义 
ibi HP tun d 在 知识 的 新 角度 整合 内 容 进行 改进 或 完善 


响 力 或 有 益 成 果 


主体 


评价 维度 


评价 方式 


兼 具 有 用 性 、 新 颖 性 、 价 值 性 与 
变革 性 ， 重 点 在 于 带 来 了 积极 的 
社会 变化 或 创造 价值 


一 般 为 学 者 、 期 刊 或 高 校 、 研 究 
院 所 等 科研 机 构 通 过 创新 活动 产 


生 的 创新 成 果 
新 颖 性 维度 、 研 究 价值 维度 、 影 
响 力 维度 


多 使 用 颠覆 性 指数 、 被 引 频 次 等 
指标 衡量 影响 力 ， 同 时 结合 文本 
新 颖 性 进行 评价 


侧重 于 时 间 维 度 上 提出 的 “ 首 


侧重 于 科学 研究 中 语义 内 容 的 


次 ”与 “不 同 ”， 不 考虑 价值 “第 一 性 ”， 一 般 具 有 实际 的 
或 后 续 的 影响 研究 价值 
一 般 为 科技 文献 中 的 语义 内 
一 般 为 科技 文献 或 其 他 文本 容 ， 包 括 研 究 问题 、 研 究 方法 
等 语 步 
寸 间 给 维 Zach 
时 间 维度 、 引 文 维度 、 内 容 维 时 间 维度 、 语 义 内 容 维度 


度 

多 使 用 基于 引文 分 析 、 基 于 内 
容 分 析 方 法 进行 文献 外 部 或 内 
部 特征 的 新 颖 性 计算 


多 使 用 相似 度 计算 等 指标 衡量 
文章 语义 内 容 的 新 疾 性 程度 


科技 文献 的 新 颖 性 是 文章 创新 性 评价 的 一 个 重要 特征 ， 往 往 代表 了 该 研究 的 创新 能 


和 影响 力 水 平 ， 也 是 衡量 科技 发 展 趋势 的 
人 员 的 阅读 效率 ， 使 其 尽快 掌握 科学 前 沿 动态 ， 意 义 是 
文 网 络 分 析 法 、 作 者 合 著 分 析 法 等 对 相应 指标 进行 量化 计算 ， 以 引 月 


要 指标 。 阅 读 新 颖 性 较 高 的 文章 可 以 提高 研究 
在 大 。 传 统 论文 的 新 颖 性 通常 使 用 引 
日 不 同类 型 期 刊 、 多 学 


科学 者 之 间 的 合 著 情 况 来 反映 学 科 知 识 融 合 产生 的 新 颖 性 C0。 随 着 自然 语言 处 理 技术 的 发 
展 ， 论 文 的 新 颖 性 研究 深入 到 了 文章 内 容 层次 ， 通 过 词语 抽取 方式 直接 揭示 论文 本 身 的 新 


颖 性 ， 且 不 受 引文 数量 、 作 者 研究 领域 等 外 部 特征 的 影响 捕 。 但 单纯 的 词语 


| 取 新 颖 性 评 


价 存在 一 定 的 次 端 ， 即 某 些 “ 不 同 于 以 往 ” 的 词语 本 身 无 法 代表 该 研究 在 内 容 或 结果 方面 


研 成 果 新 颖 性 提供 了 研究 基础 。 


有 实质 性 创新 ， 而 看 起 来 “用 词 不 新 ”的 文章 可 能 真正 具有 实质 创新 。 而 针对 语义 内 容 的 
研究 结合 了 知识 抽取 相关 技术 ， 通 过 对 论文 的 研究 背景 、 
用 方法 技术 等 语 步 的 识别 睛 ， 实 现 针对 文章 内 容 的 全 方位 、 多 角度 语义 挖掘 ， 为 实质 的 科 
语义 新 颖 性 科技 文献 的 语义 新 颖 性 评价 流程 如 图 1 所 示 。 


研究 问题 -方法 、 研 究 结 论 、 所 使 


语义 新 颖 性 评价 


通过 使 用 文本 相似 
度 、 向 量 空间 距离 、 词 
频 和 共 现 矩阵 等 定义 并 
计算 新 颖 性 指数 ， 实 现 


图 1 科技 文献 的 语义 新 颖 性 评价 流程 图 


Fig.1 Flow diagram of semantic novelty evaluation of scientific and technological literature 


3 语义 新 颖 性 评价 指标 


文献 本 身 作为 知识 的 载体 ， 所 承载 的 知识 内 容 复杂 且 价 值 表现 多 样 ， 国 内 外 研究 者 也 


从 多 个 维度 对 学 术 论 文 评价 展开 了 研究 。 目 前 应 月 
用 最 广泛 的 是 期 刊 及 会 议论 文 相关 的 衍生 指标 ， 包 括 期 刊 影响 因子 、 论 文 数量 指标 等 0 


于 科技 文献 评价 的 可 量化 指标 较 多 ， 应 


但 针对 各 个 学 科 和 各 类 论文 仍 没 有 普 适 性 的 评价 指标 。 传 统 的 论文 新 颖 性 评价 指标 主要 从 


时 间 维 度 和 引文 维度 两 个 方面 考量 。 


但 在 科技 文献 语 


于 不 同 的 i 


义 评价 FH, FH 


在 义 挖 掘 方式 


和 作者 定义 的 计算 方法 不 同 ， 村 对 文具 内 容 的 新 颖 程度 还 :没有 统一 的 衡量 指标 。 


3.1 传统 科技 文献 新 颖 性 评价 指标 


HH - TES 
对 的 新 颖 性 可 能 就 越 高 。 除 ] 
间 的 计量 指标 。 学 界 针 对 论文 新 疾 
论文 的 平均 发 表 时 间 ” 来 衡量 1。 
响 ， 可 以 用 于 识别 新 颖 的 文章 主题 


章 新 突 性 的 指标 。P.Llorente 等 Cn 针对 领域 的 不 同 
上 来 衡量 文献 和 期 刊 对 该 领域 发 展 的 新 颖 性 和 贡献 度 。 总 体 来 说 ， 
F 价 指标 。 


平均 时 | 
文章 的 新 颖 性 是 最 直观 的 


是 最 直 


的 本 质 特 征 重点 强调 时 间 维 
文献 本 身 的 发 表 时 间 以 外 ， 也 有 一 些 适 用 于 


度 ， 学 界 普遍 认为 文献 发 表 的 时 


性 指标 主要 使 用 “被 引文 献 的 平均 发 表 时 
I. Jarié 等 C9 假 设 引 文 的 相对 年 龄 受 科 学 
， 同 时 提出 了 使 用 被 引文 献 的 平均 发 表 时 


六 参考 文 


USES SS ETE 


间 越 晚 ， 其 相 
献 发 表 时 
“类 全 
影 


F 价 文 


[R] " 和 


IRE] 


主题 论文 进行 聚 类 ， 


以 


除了 时 间 维 度 衡 量 以 外 ， 有 学 
广泛 的 就 是 颠覆 性 指数 。2017 F, 
研 成 果 的 原创 性 。 颠 覆 性 
来 衡量 文献 的 颠覆 性 ， 若 目标 文献 


考 文献 ， 则 认为 该 文献 具有 颠覆 性 。 


者 将 文章 引文 作为 新 颖 性 
R.Funk 等 (3 首次 提出 颠覆 性 指数 的 概念 


^, 


的 衡量 指标 ， 这 其 中 应 


以 类 簇 论文 的 发 表 


时 间 维 度 衡量 


| 最 为 
用 于 测度 科 


FE 指 数 通 过 目标 文献 发 表 后 ， 引 文 网 络 是 否 发 生 了 转移 及 转移 程度 


的 施 引文 献 仅 引 用 了 目标 文献 而 没有 引 


目前 通过 引文 进行 新 颖 性 衡量 


的 角度 主要 有 三 种 : 参考 文献 角度 293030、 


度 C2- 和 施 引 文献 角度 5 。 
学 科 的 组 合 新 颖 性 ， bod 
果 的 有 用 性 及 后 续 
概念 年 龄 和 主题 TAR, 主题 词 家 的 
决 的 问题 。 den dud e 
和 原创 性 ， 


从 参考 文献 的 角度 来 说 ， 论 文 的 新 颖 性 
2 ou s 
n 


局 BR 性 在 ] 


侧重 于 参考 文献 所 属 


dk 否 ;准确 


颠覆 性 :指数 ee Hbc 
论文 带 来 的 后 续 研 究 价值 ， 与 科研 
标 更 适合 进行 文章 新 颖 性 的 度量 。 


3.2 文献 语义 新 颖 性 评价 指标 


针对 评价 指标 而 言 ， 时 间 维 
容 新 颖 性 的 评价 。 如 何 更 好 地 挖 和 
评价 成 为 目前 学 界 的 研究 热点 。 
结合 专家 问 


-H H 


度 


M.L.Frigotto 等 B71 
者 的 
性 计算 公式 : 


ns(p) = ttc) 


该 公 
同时 出 现 的 次 数 ， 同 时 包含 作者 ( 
合 著 的 次 数 。 该 指标 融合 
层次 来 衡量 科学 创新 681。 


随 着 文本 挖掘 技术 的 不 断 成 熟 ， 
指标 也 开始 摆脱 外 部 指标 的 影响 
方法 计算 中 文 文档 和 句子 新 颖 性 度量 


卷 调查 的 方式 ， 使 
创造 性 。 这 项 研究 将 论文 视 为 一 


人 
评价 的 最 终 目的 一 致 ， 因 此 ， 


颠覆 性 


与 引文 维度 都 属于 文章 的 外 部 特征 ， 


ENERET 
指数 在 衡量 文献 新 颖 性 上 更 侧重 于 焦点 
FLECTERE TR 


] 目 标 文献 的 参 


焦点 论文 角 


SOS TRA 


E 
AE 


不 涉及 针对 文章 内 
昌文 本 内 容 信息 ， 真 正 实现 全 方面 、 多 维度 的 语 


义 新 颖 性 


论文 作为 基本 的 分 析 自 


位 来 衡量 作 


组 作者 Ca) 和 概念 (cO WAE, EX 


ts(C);t(c’)\t(a), t (2); t(a’)} 


E 


a) 的 所 有 论文 数量 


文献 的 新 颖 性 评价 越 来 越 侧重 于 文本 内 容 ， 语 义 记 
， 真 正 深 入 到 内 容 层 面 。Y.Zhang 等 9 使 用 余弦 相似 度 的 
并 给 出 了 新 颖 性 指标 NoveltyScore 的 计算 公式 : 


W, 


了 论文 的 新 新 


(1) 


\ 式 包含 概念 (c) 之 前 在 文献 中 出 现 的 次 数 、 专 业 领域 中 出 现 的 次 数 以 及 两 个 概念 
、 专 业 领域 中 的 论文 数量 
论文 的 概念 内 容 和 外 部 特征 的 新 颖 性 ， 首次 深入 到 


EL 
FH 


以 及 两 位 作 
文献 的 内 容 


F 价 


Novelty Score(dt) = 1 — (pax cos(db dj) (2) 


Xr-1 Wk (do) ' wx (di) 


d.,d) = 
cos(de, di) TAREA 


(3) 


该 公式 使 用 Ncos (qd) 表 示 文 档 或 句子 d 的 余弦 相似 度 得 分 ， 使 用 词 频 作为 术语 加 权 函 数 
来 计算 句子 加 权 向 量 中 每 个 元 素 的 权重 ， 并 设 定 新 颖 性 阔 值 ， 通 过 计算 目标 文档 /句子 与 历 
史 文档 /句子 之 间 的 相似 性 得 分 来 评价 其 新 颖 性 。 


除了 完全 使 用 文章 的 语义 内 容 作为 计算 指标 以 外 ， 论 文 发 表 时 间 也 被 纳入 考虑 范围 中 
辅助 评价 新 颖 性 。 杨 建 林 等 多 通过 定义 带 时 间 戳 的 关键 词 对 逆 文 档 频率 (Time-Stamped 
Inverse Document Frequercy of keyword Pair,KPTIDF)， 提 出 了 针对 文档 的 主题 新 颖 性 计算 指 
标 : 


Dici<jsn KPTIDF(D, ti, tj) 


NOVO RT en IXUS) 


(4) 


以 论文 的 发 表 期 刊 出 版 时 间作 为 时 间 戳 ， 同 时 基于 关键 词 对 的 逆 文 档 频 率 进行 计算 ， 
弥补 了 单个 关键 词 反映 新 颖 性 程度 较 弱 的 缺点 。 该 指标 将 语义 内 容 与 论文 发 表 时 间 融 合 ， 
既 考虑 文章 主题 内 容 新 颖 程度 ， 又 融合 论文 发 表 的 时 间 维 度 ， 形 成 科学 、 合 理 的 新 颖 性 评 
价 方式 。 


3.3 新 颖 性 评价 指标 对 比分 析 


总 体 来 说 ， 上 述 新 颖 性 指标 虽然 都 能 较 好 的 解决 部 分 论文 新 颖 性 评价 问题 ， 但 仍 存 在 
局 限 性 。 本 文 在 针对 不 同 的 指标 的 侧重 点 ， 归 纳 总 结 了 科技 文献 新 颖 性 评价 指标 的 优 劣 对 
BE 见 表 3。 


d 3 现 有 科技 文献 新 颖 性 评价 指标 对 比 


Table3 Comparison of Novelty Evaluation Indexes of Existing Scientific and Technological 


Literature 
IE (35 5535 
Zu. 评价 维度 单一 ， 无 法 反应 论文 对 
时 间 维度 a a 后 续 科研 成 果 的 影响 和 科学 价 
传统 科技 文献 值 。 

新 颖 性 评价 指 过 于 依赖 对 文章 参考 文献 的 分 
= 较 好 的 评价 了 学 术 成 | ino aL ANEA 
引文 维度 | 果 的 引文 新 颖 性 和 后 | T, 需要 较 多 的 不 同类 型 施 引 文 

续 影响 力 。 献 的 数量 才能 满足 计算 ;新 颖 性 
SR 识别 缺乏 及 时 性 。 


忽略 了 外 部 特征 的 影 

响 ， 真 正 深 入 文章 内 

容 层次 进行 新 颖 性 评 
价 。 


针对 整个 文章 而 言 ， 时 间 维 度 和 引文 维度 都 可 以 作为 衡量 新 颖 性 的 指标 ， 但 其 局 限 性 
在 于 完全 脱离 了 文章 内 容 ， 且 如 果 存 在 类 似 于 “ 睡 美人 ”论文 的 零 被 引文 章 类 型 ， 或 由 于 
引文 时 间 窗 而 造成 焦点 论文 未 被 引用 的 情况 ， 基 于 时 间 和 引文 维度 的 评价 指标 无 法 真正 评 
判 论 文 的 新 颖 性 。 科 技 文献 的 语义 新 颖 性 评价 通过 对 语义 内 容 进行 挖掘 和 分 析 ， 实 现 针对 


由 于 针对 内 容 的 文本 挖掘 方式 和 
新 颖 性 计算 方式 不 同 ， 无 法 形成 
统一 的 度量 指标 。 


语义 新 颖 性 评价 指标 


内 容 实质 新 颖 性 的 综合 评判 ， 相 较 于 外 部 特征 而 言 ， 更 具有 科学 性 和 合 到 
献 的 新 颖 性 评价 指标 可 以 结合 引文 指标 与 语义 指标 的 


关注 时 间 维度 与 引文 关系 中 的 “新 颖 性 ”1。 
4 语义 新 颖 性 评价 方法 


早 在 1996 年 9 
部 DARPA(Defense 


,美国 就 出 现 了 关于 新 颖 愧 


结合 ， 


性 。 未 来 科技 文 
在 识别 文章 语义 内 容 的 同时 ， 


ERMI (novelty detection) 的 相关 研究 , 美 防 


Advanced Research Projects Agency) 发 起 了 主题 探测 与 追踪 的 子 项 目 ， 在 


信息 流 中 探测 首次 提 到 的 话题 报道 。2002 年 ,作为 文本 信息 检索 领域 最 权威 的 国际 性 评测 会 
议 ，TREC(text retrieval conference) 开 始 在 会 议 上 增加 文本 


找到 文章 中 的 主题 相关 句子 和 新 颖 性 句子 ,4 
究 者 们 的 广泛 关注 。 科 技 文献 的 本 质 是 承载 6 
计量 学 为 基础 的 评价 理论 和 方法 已 不 能 满足 研究 需要 ， 


RZF T f 


与 语义 技术 的 发 展 ， 传 统 以 科学 学 、 


内 容 新 颖 性 追踪 探测 
ERAF, 自 此 文本 内 容 的 新 颖 性 看 


的 项 目 ， 


通过 
完 开 


究 成 果 的 书画 


文本 ， 


随 着 大 数据 


对 科技 文献 的 文本 内 容 进 行 语义 新 颖 性 评价 研究 成 为 构建 科学 评价 体系 的 重要 方法 。 


法 主要 是 同行 评议 法 ， 


技 文献 的 主题 及 内 容 新 颖 性 进行 综合 的 、 
表 作 及 被 引 次 数 的 多 少 ， 而 是 通过 论文 本 身 去 评判 文 草 的 论证 内 容 、 
颖 性 和 学 术 应 用 价值 中 1。 这 种 定性 评价 


前 针对 科技 文献 语义 新 颖 性 的 评 


通过 领域 专家 对 自身 研 


缺乏 具体 的 量化 指标 ， 


六 献 的 具体 词语 、 主 
己 有 的 下 


4.1 向 量 空 间 模 型 法 


且 费 时 费力 。 


介 方法 主要 分 为 定性 
究 方 向 和 学 科 发 展现 


方法 和 定量 方法 。 


空间 向 量 模型 法 是 现 有 的 新 颖 性 评价 方法 中 起 步 最 早 、 


也 基于 此 方法 展开 了 


名 实体 识别 法 、 基 于 聚 类 方法 、 基 于 近邻 方法 和 基于 
的 就 是 相似 度 计 算法 ， 该 方法 主要 


系列 看 


究 。 邢 美 凤 等 的 认为 向 量 空间 模型 法 包括 


行 挖掘 ， 实 现 文 献 新 颖 怕 


应 用 最 为 广泛 的 ， 


其 中 定性 方 
天 的 了 解 和 认 知 ， 对 科 
公平 公正 的 判断 。 这 种 方法 无 关于 论文 作者 的 代 
主题 及 研究 方法 的 新 
的 方法 虽然 可 以 帮助 领域 外 的 研究 人 员 更 快 的 了 解 
文献 的 知识 结构 ， 但 多 依靠 专家 的 主观 判断 和 个 人 认 知 ， 存 在 一 定 的 主观 性 和 非 全面 性 ， 


科技 文献 的 语义 新 颖 性 评价 定量 方法 主要 使 用 的 是 基于 内 容 分 析 方 法 ， 通 过 针对 科技 


题 、 研 究 内 容 等 文献 语义 内 容 的 量化 。 在 


究 中 ， 主 要 包括 向 量 空间 模型 和 主题 探测 追踪 两 种 方法 。 本 文 将 重点 论述 不 同 的 
语义 新 颖 性 度量 方法 的 评价 方式 及 优 劣 。 


EH 


WM 


过 文献 之 间 的 距离 来 衡量 文献 的 相 


邻 法 和 基于 Hellinger 骨 
性 研究 如 表 4 所 示 。 


通过 总 结 归 纪 


E 离 方法 。 


表 4 向 量 空间 模型 法 的 语义 新 颖 性 看 


Table4 The semantic novelty of the vector space model method 


以 性 ， 进 而 判断 文献 的 新 颖 程度 ， 
， 不 同学 者 使 用 向 量 空间 模型 法 的 语义 新 颖 


相似 度 计 算法 、 命 
经 网 络 的 方法 。 目 前 应 用 最 广泛 
文本 相似 度 越 小 ， 


依赖 于 空间 向 量 的 两 两 相似 度 计算 ， 
则 新 颖 性 越 高 。 除 了 相似 度 计算 外 ， 基 于 距离 的 方法 也 常 被 用 于 新 颖 怕 


计算 。 这 种 方法 通 


Zn 


p" 


目前 研究 多 


使 用 民 近 


KH 作者 研究 方法 

woggpugus 使 用 Doc2Vec 和 HMM 算法 ， 通 过 稳 建 相似 度 转移 箱 阵 、 计 算 特征 因子 

”来 计算 文档 集中 各 个 文档 的 相似 程度 ， 进 一 步 判 断 文档 的 新 颖 性 程度 。 

Sramu 使 用 对 称 性 度量 (余弦 相似 性 和 Jacerad 相似 性 》 和 不 对 称 度量 (新 词 数 
A 和 重合 数 ) ， 并 基于 两 种 度量 方式 构建 了 综合 新 颖 性 评测 框架 。 
方法 — 使 用 Doc2Vec 语言 模型 构建 文本 向 量 ， 并 基于 张 量 神经 网 络 模型 
A (Neural Tensor Network, NTN) 来 训练 求解 ， 量 化 评估 文章 的 新 颖 性 。 

7 su 使 用 BERT 模型 来 训练 词 向 量 ， 通 过 向 量 之 间 的 相似 性 反应 语义 间 的 相 


似 性 。 


构建 科技 词 向 量 ， 使 用 文本 语义 相关 二 分 类 模型 来 判断 当前 词 与 候选 文 


x3 fps SE [49] 
me 献 集中 的 相似 程度 
gapo ”根据 语义 层面 的 相似 度 ， 使 用 链 路 预测 技术 ， 结 合 知识 元 的 共 现 次 数 及 
未 来 链接 概率 综合 评价 技术 文本 的 新 颖 性 
si TELDA 主题 模型 的 基础 上 ， 使 用 余弦 相似 度 计算 两 个 文档 主题 分 布 之 间 
等 6 的 差异 ， 以 此 分 析 特 定 科学 领域 的 论文 新 颖 性 
quus BEA) TEIDE 计算 文本 概念 向 量 的 余弦 相似 度 ， 再 由 相似 度 计算 得 到 会 议 
za 797 论文 的 产 出 新 颖 性 指标 ， 以 此 来 计算 会 议论 文 的 新 颖 性 程度 
方法 vi “使 用 分 类 器 将 旧 文 档 划 为 个 聚 秘 ， 然 后 衡量 目标 文档 与 每 个 聚 秘 中 心 
- 点 的 位 置 来 对 文档 类 别 进 行 判断 ， 最 后 将 该 文档 与 聚 簇 之 间距 离 最 近 的 
B 点 进行 相似 度 计算 64 
使 用 基于 Hellinger 距离 的 索引 树 聚 类 方法 ， 计 算 新 闻 话 题 文本 的 相似 


K.Zhang 等 55] 


度 ， 同 时 引入 了 时 间 参 数 来 衡量 文本 的 新 颖 和 


PT 


o 


4.2 主题 探测 追踪 法 


主题 探测 追踪 法 是 针对 目前 研究 领域 较为 前 治 的 热点 建立 模型 ， 通 过 关键 词 、 主 题词 
和 词 频 等 指标 对 文献 新 颖 性 进行 量化 。 这 种 方法 深入 到 了 文章 的 主题 内 容 中 ， 重 点 强调 关 
键 词 、 文 章 主题 等 具有 语义 信息 的 新 颖 性 评价 。 随 着 语 步 识别 技术 的 发 展 ， 科 技 文献 中 的 
研究 背景 、 研 究 问题 、 研 究 方法 等 核心 内 容 的 抽取 助力 了 文献 的 评价 指标 量化 ， 尤 其 是 针 
对 问题 -方法 短语 的 新 颖 性 评价 成 为 了 研究 热点 ， 但 基于 研究 背景 、 研 究 结论 等 语义 内 容 的 


新 颖 性 评价 仍 较 少 开 展 。 通 过 总 结 归纳 ， 不 同学 者 使 用 主题 探测 追踪 法 的 语义 新 颖 性 研究 
如 表 5 所 示 。 
表 5 主题 探测 追踪 法 的 语义 新 颖 性 研究 
Table5 Semantic novelty of topic detection and pursuit 
类 型 作者 研究 方法 
、k Ain 将 神经 网 络 算法 模型 与 主题 新 颖 性 探测 相 结 含 ， 通 过 构建 主题 共 现 图 的 
方法， 对 研究 论文 主题 背景 图 的 变化 特征 进行 提取 ， 使 用 自 编码 神经 网 
络 进行 新 颖 性 识别 
研究 主题 共 现 slg 在 R.K.Amplayo 研究 的 基础 上 设计 基于 主题 共 现 图 的 论文 新 颖 性 评价 与 
法 推荐 算法 
在 文献 中 抽取 主题 词 并 构建 领域 主题 词 共 现 网 络 ， 设 计 新 颖 组 合 率 、 中 
任 海 英 等 53] 等 组 合 率 和 常规 组 合 率 三 个 指标 ， 以 此 来 评估 论文 主题 的 新 颖 组 合 和 常 
规 组 合 对 论文 新 颖 性 类 型 的 影响 
K.Matsumoto 等 使 用 有 序 逻 辑 和 普通 最 小 二 乘 回归 模型 ， 提 出 了 一 种 新 颖 性 指标 来 量化 
[59] 焦点 论文 主题 与 同 领域 论文 之 间 的 相似 程度 
LUE M HERI ELTE SEA, ETHAN, BA SURUA AANE zr DEG SUR 
法 A 率 原则 来 计算 文档 主题 新 颖 度 


利用 Keygraph 算法 提取 代表 论文 研究 主题 的 关键 词 ， 与 科学 研究 前 沿 主 
题 进行 计算 比较 ， 结 合 期 刊 影响 因子 和 Altmetrics 两 项 外 在 指标 进行 评价 


FC SIG 


ug 


TE AK[62] 
VY 


将 文献 按照 时 间 序 列 构成 索引 ， 


研究 内 容 在 时 间 方 


的 新 颖 性 


并 投影 在 问题- 方法 矩阵 中 ， 以 此 来 


FE 价 


通过 对 问题 和 方法 短语 进行 识别 ， 基 于 词 频 原 则 分 别 计算 短语 新 颖 度 和 


m 钱 佳 佳 等 3] ”问题 .方法 组 合 新 颖 度 ， 再 对 其 赋予 不 同 的 权重 进行 文章 的 新 颖 性 计算 ， 
E 证 明基 于 问题 和 方法 短语 进行 新 颖 性 度量 的 科学 性 
Y 
qias 使 用 LDA 主题 模型 对 论文 的 问题 和 方法 短语 进行 分 类 ， 构 建 问题 -方法 
ad 矩阵 并 实现 论文 新 颖 性 查询 
posue 通过 语义 角色 标注 法 ， 使 用 BERT 模型 识别 创新 句 并 匹配 到 文章 中 的 创 
DIST 新 段 ， 实 现 基 于 语义 信息 的 完整 段落 新 颖 性 挖掘 
5 现存 问题 与 研究 展望 


通过 对 文献 梳理 和 研究 总 结 ， 


本 文 分 析 了 科技 文献 语义 新 颖 性 研究 中 存在 的 主要 问 


题 ， 并 依据 研究 趋势 和 不 足 之 处 对 其 未 来 发 展 进行 了 展望 。 


5.1 现存 主要 问题 


目前 由 于 科技 文献 的 语义 新 颖 性 评价 流程 主要 包括 两 个 方面 ， 即 语义 内 容 的 挖掘 和 新 


颖 性 评价 ， 本 文 对 于 现存 主要 问题 的 分 析 也 围绕 这 两 个 方 攻 


COD 语义 内 容 挖掘 问题 


四 语义 内 容 标准 类 型 不 一 


科技 文献 作为 科研 工作 的 重要 载体 ， 以 文本 内 容 实现 对 科 丰 


展开 


含 了 多 种 类 型 的 语义 内 容 ， 


成 相对 统一 的 划分 标准 是 实现 语义 内 容 自动 识别 的 基础 。f 


工作 的 描述 论证 ， 其 中 包 


目前 针对 文献 语义 内 容 的 研究 需 对 不 同 论文 结构 采用 不 同 建 模 方式 ， 导 致 语义 类 型 划分 依 


据 不 统一 ， 因 此 语义 内 容 会 出 现 交 又 、 重 大 和 冲突 的 现象 。 
的 理解 存在 不 同 ， 导 致 其 范围 、 内 容 和 特征 无 法 被 准确 描述 ， 
j， 限 制 技术 的 通 


对 其 特征 信息 的 利 
名 挖掘 方法 存在 局 限 


性 。 


且 不 同 的 研究 者 对 于 语义 内 容 
这 会 影响 语义 内 容 挖掘 技术 


由 于 目前 公开 标注 的 数据 集 存在 “中 文 开 源 语 料 稀缺 "和 “所 属 领 域 集中 于 自然 科学 领 


域 "等 问题 9， 自 建 的 标注 


数据 集 规模 较 小 ， 且 存在 人 工 标 注 1 


ij 差 ， 数 据 标注 结果 缺少 权 


威 认 可 ， 导 致 现 有 的 语义 挖掘 方法 缺乏 普 适 性 验证 。 此 外 ， 深 度 学 习 方 法 作为 当前 的 主流 


方法 ， 对 于 数据 量 、 


设备 性 能 的 要 求 较 高 ， 使 


场合 受 限 ， 


且 目 前 的 语义 内 容 挖掘 方法 在 


许多 研究 领域 还 未 达到 较 好 的 准确 性 ， 无 法 满足 大 规模 现实 应 用 的 需要 。 


@@ 挖 掘 重点 不 平衡 
通过 对 语义 内 容 挖掘 


方法 的 短语 抽取 ， 对 其 他 语义 类 型 的 挖掘 较 少 。 


善 ， 学 术 论 文中 的 创新 点 、 


目 关 研究 进行 归纳 发 现 ， 


目前 研究 点 主要 集中 在 研究 问题 及 研究 


在 究 背景 、 


研究 结论 等 


针对 这 类 语义 内 容 的 挖掘 


年 仍然 较 少 。 此 乡 


中 包含 的 语义 内 容 更 丰富 ， 
利用 。 


(2) 新 颖 性 评价 问题 
QD 评价 维度 存在 误区 
前 文 提 到 


但 同时 无 


目前 新 颖 性 评价 常 与 创新 性 评价 混为一谈 ， 这 一 误区 使 研究 中 常 有 使 | 
主题 的 新 颖 性 指标 来 衡量 论文 创新 性 的 情况 ， 导 致 评价 结果 的 不 准确 性 。 有 上 


HER, EEH 
言 息 也 开始 逐渐 被 学 者 们 利用 ， 但 目前 
工 ， 目 前 研究 中 所 利 
等 短文 本 挖掘 包含 的 语义 关系 与 干扰 信息 相对 较 少 ， 挖 损 


评价 体系 的 不 断 发 展 完 


j 的 摘要 、 关 键 词 、 标 题 


难度 也 较 小 ， 而 论文 章节 或 全 文 
信息 也 较 多 ， 挖 掘 难 度 也 较 高 ， 使 大 量 的 信息 难以 


论文 
目前 许多 研究 


单纯 通过 引文 维度 衡量 论文 新 颖 物 
了 评价 完全 脱离 论文 实质 性 内 容 的 问 
己 评价 指 标 设计 强 

由 于 当前 的 新 颖 性 评价 方法 多 使 
不 同 ， 更 难以 形成 统一 的 衡量 指标 。 
响 ， 将 个 人 的 认 知 与 评价 期 待 站 


r 观 性 


一 的 指标 体系 与 研究 框架 。 
@@ 评 价 体系 局 限于 特定 领域 


目前 ， 科 技 文献 新 颖 性 记 


论文 语义 内 容 相 关 的 特征 指标 权重 不 
同类 型 的 文献 评价 ， 不 具有 普遍 适用 
5.2 未 来 研究 展望 

近年 来 大 数 


要 的 技术 支撑 ， 也 为 科技 文献 的 语义 
对 未 来 的 研究 方向 做 出 了 展望 。 


(1) 充分 挖 
El 


科技 文献 的 语义 内 容 特征 是 


E， 包 括 期 刊 影响 


题 。 


同 。 
性 [67] 


FE 价 的 研究 大 多 集中 在 人 文 神 
因此 大 多 数 研究 中 提 


因子 、 引 文 数量 指标 等 外 在 指标 ， 造 成 


j 基 于 内 容 的 方法 ， 学 者 们 对 于 语义 内 容 的 挖掘 方式 
在 设计 指标 时 ， 鹿 
入 设计 过 程 中 ， 当 前 的 科技 文献 新 颖 性 


E 免 受到 个 人 主观 意愿 的 影 
F 价 仍 缺 乏 相 对 统 


PITE X 


1 


EMR, FPES SEL 
出 的 方法 仅 针对 于 同 领域 、 


新 颖 性 


EY 


加 科技 文献 内 容 语义 特征 
新 颖 性 评价 的 重要 依 


动 识别 可 以 更 加 科学 与 高 效 。 除 了 了 


四 技 术 与 深度 学 习 技术 迁 勃 发 展 ， 为 文本 内 容 的 自动 控 # 


Bo EH ZETI 


ESTE T 8 


E 


价 研究 带 来 了 新 的 发 展 契 机 ， 基 于 此 ， 本 文 


轴 技 术 对 特征 进行 自 


题词 、 关 键 词 等 内 容 ， 不 同 语义 类 型 


J 之 间 的 关系 也 值 


得 关注 ， 包 括 同 一 粒度 对 象 之 间 和 不 同 粒度 对 象 之 间 的 语义 关系 ， 构 建 论文 逻辑 链 。 未 来 


的 研究 应 注重 挖掘 更 多 的 
撑 ， 促 进 语 义 内 容 的 知识 组 乡 


(2) 扩展 语义 内 容 挖 据 的 太 
目前 深度 学 习 技 术 作 为 i 


与 利用 


完 路 径 


o 


版 化 程度 高 ， 研 究 者 们 多 选择 直接 套 
FHER 
ZAA, LEDRI B 


对 论文 新 颖 性 进行 评价 。 
(3) 增强 论文 评价 的 科学 性 与 智能 性 


不 同学 科 和 类 型 的 科研 领域 应 健全 分 类 指标 评价 体系 ， 以 学 科 特 色 为 基 而 
语义 新 颖 性 评价 侧重 点 与 评价 指标 ， 为 新 颖 性 记 


价 工作 健康 有 序 开展 。 同 时 ， 语 义 新 


蜂 性 评价 


用 常见 的 技术 


语义 内 容 特 征 与 关系 网 络 ， 为 语义 新 颖 性 评价 提供 可 靠 的 数据 文 


吾 义 内 容 挖掘 的 主流 手段 ， 其 


t 有 很 强 的 信息 提取 能 力 ， 且 模 


实现 多 模 态 内 容 控 和 


匡 架 进行 内 容 挖 掘 ， 缺 乏 对 语义 内 容 的 
中 合 和 方法 思考 。 未 来 的 研究 应 拓宽 知识 挖掘 思路 ， 除 了 对 于 主题 词 、 关 键 词 等 进行 
片 等 除了 文本 以 外 的 特 生 


时 模型 ， 全 方位 地 


提出 各 自 的 


E, H 


然 语言 处 理 
对 同行 评议 文本 进行 悍 


性 ， 深 度 结合 目 等 相 
动 挖 气 ， 结 合 
型 。 

6 结语 
目前 我 国 科研 活动 的 发 展 态势 良 


文 作为 学 术 成 果 的 主要 载体 ， 其 新 颖 
SR 


FE 价 提供 


I : 需要 综合 
lk 顾 内 外 在 指标 ， 全 面 客观 地 反映 学 术 论文 的 新 颖 性 程度 。 同 时 应 增强 评价 的 


昌 关 技术 ， 实 现 学 术 论 文中 创新 点 、 创 新 句 及 创新 段落 的 自 


科学 的 评判 标准 ， 促 进 科技 文献 评 
时 间 维 度 、 引 文 维度 和 语义 内 容 信 


智能 


4 感 分 析 所 得 到 的 情感 倾向 性 时， 构建 智能 论文 评价 模 


好 ， SEEI 


E 在 大 力 推 


D 


性 的 


比分 析 了 基于 内 容 新 颖 性 评价 的 不 同 


方法 及 


案 》 中 明确 指出 ， 要 “充分 运用 基 寺 
性 成 果 专 家 评价 与 高 水 平成 果 定 量 记 


n 


定量 数 
TR 


进 科研 评价 ， 推 进 创新 驱动 。 论 


要 程度 不 言 
E， 更 好 地 推动 科研 评价 与 创新 ， 本 文 介绍 了 科技 文献 语义 评价 新 颖 性 的 度量 指标 ， 对 
RB. ARRE GELIR TEN 
居 和 客观 订 


HAA” e 也 


EJH 


度 的 定量 


而 喻 。 为 了 衡量 科技 文献 的 语义 新 


E 据 的 专家 融合 评价 方法 ， 
学 者 认为 ， 学 术 评 价 应 挖掘 多 维 


坚持 代表 


示 ， 实 现 基于 客观 证 据 与 定量 指标 的 综合 记 


F 价 体系 ， 从 而 为 同行 评议 提供 数据 


支撑 [4。 论 文 的 新 颖 性 评价 根本 还 是 在 于 内 容 的 新 颖 程度 ， 未 来 针对 科技 文献 语义 新 颖 性 
的 研究 应 结合 定量 的 内 容 分 析 和 定性 的 同行 评议 方法 ， 对 论文 内 容 进行 深层 次 的 揭示 和 把 
握 ， 科 学 、 合 理 的 实现 科技 文献 的 语义 新 颖 性 评价 。 
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